微软 GAIA：ZERO-SHOT的对口型单张图生成视频技术

renee创业狗 Renee 创业随笔

2024-10-09

微软上个月底发布了一篇论文，《GAIA: ZERO-SHOT TALKING AVATAR GENERATION》，是微软的对口型视频生成技术。论文在这里：https://arxiv.org/abs/2311.15230。

Demo和Code的网站目前无法访问，可以看一些示例：

工作原理

GAIA的工作原理如下图所示：

GAIA由VAE（Variational Autoencoder）和diffusion模型组成。VAE用于将每个视频帧编码成一个解缠绕的表示（即运动和外观表示），并从这个解缠绕的表示重构出原始帧。然后，diffusion模型被优化，以生成在语音序列和视频剪辑中的随机帧条件下的运动序列。在推理过程中，扩散模型以输入的语音序列和参考肖像图像作为条件，产生运动序列，然后利用VAE的解码器将其解码成视频。

效果展示

GAIA与最先进的基于语音的方法进行了定性比较。结果显示，GAIA在自然度、嘴唇同步质量、视觉质量和运动多样性方面均表现出更高的水平。相比之下，其他基线方法往往过于依赖参考图像，因此容易生成轻微运动（例如，当参考图像的眼睛闭合时，大多数基线方法生成闭眼的结果）或不准确的嘴唇同步。

与其他技术的比较

以下是GAIA与其他技术的比较：

自然度：GAIA胜出，生成的视频更加自然。
嘴唇同步质量：GAIA优于其他技术，嘴唇的运动与语音更为匹配。
视觉质量：GAIA的视觉质量更高，细节更加清晰。
运动多样性：GAIA在运动多样性方面表现出色，生成的视频更富有生动感。

继续滑动看下一个

Renee 创业随笔

向上滑动看下一个

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

微软 GAIA：ZERO-SHOT的对口型单张图生成视频技术

您可能也对以下帖子感兴趣

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

生成图片，分享到微信朋友圈

微软 GAIA：ZERO-SHOT的对口型单张图生成视频技术

您可能也对以下帖子感兴趣